综合网视频亚洲综合网视频 ,国产黄片在线看精品

當(dāng)前位置：100EC>產(chǎn)業(yè)數(shù)字化>美團(tuán)上線首個(gè)開源并可體驗(yàn)的“重思考”模型，工具調(diào)用能力登頂開源SOTA

美團(tuán)上線首個(gè)開源并可體驗(yàn)的“重思考”模型，工具調(diào)用能力登頂開源SOTA

作者：來(lái)源：網(wǎng)經(jīng)社發(fā)布時(shí)間：2026年01月16日 13:31:07

(網(wǎng)經(jīng)社訊)1月16日，美團(tuán)LongCat官微消息，作為L(zhǎng)ongCat-Flash-Thinking模型的升級(jí)版，LongCat-Flash-Thinking-2601現(xiàn)已開源。新模型在Agentic Search（智能體搜索）、Agentic Tool Use（智能體工具調(diào)用）、TIR（工具交互推理）等核心評(píng)測(cè)基準(zhǔn)上，均達(dá)到開源模型SOTA水平。

值得一提的是，該模型在工具調(diào)用的泛化能力上優(yōu)勢(shì)尤其明顯，在依賴工具調(diào)用的隨機(jī)復(fù)雜任務(wù)中，性能表現(xiàn)超越了Claude-Opus-4.5-Thinking，可大幅度降低真實(shí)場(chǎng)景下新工具的適配訓(xùn)練成本；同時(shí)，新模型支持“重思考”模式，可同時(shí)啟動(dòng)8個(gè)“大腦”執(zhí)行任務(wù)，確保思考周全、決策可靠。

目前，該功能可在 https://longcat.ai網(wǎng)站免費(fèi)體驗(yàn)。

“重思考”功能全新上線智能體工具調(diào)用能力登頂開源 SOTA

據(jù)網(wǎng)經(jīng)社產(chǎn)業(yè)電商臺(tái)（B2B.100EC.CN）獲悉，全新推出的“重思考”模式，已讓“龍貓”學(xué)會(huì)了“深思熟慮”再行動(dòng)。

具體來(lái)看，當(dāng)遇到高難度問(wèn)題時(shí)，新模型會(huì)把思考過(guò)程拆分成“并行思考”和“總結(jié)歸納”兩步進(jìn)行：

并行思考階段，與人類面對(duì)難題會(huì)同時(shí)嘗試多種解法相似，“重思考”模式下的模型，會(huì)在保證思路多樣性的同時(shí)，獨(dú)立梳理出多條推理路徑尋找最優(yōu)解；總結(jié)歸納階段，則會(huì)對(duì)多條路徑進(jìn)行梳理、優(yōu)化與合成，并將優(yōu)化結(jié)果重新輸入，形成閉環(huán)迭代推理，推動(dòng)思考持續(xù)深化。

除此之外，LongCat團(tuán)隊(duì)在新模型中加入了額外的強(qiáng)化學(xué)習(xí)環(huán)節(jié)，針對(duì)性打磨模型的總結(jié)歸納能力，從而讓LongCat-Flash-Thinking-2601實(shí)現(xiàn)了“想清楚再行動(dòng)”的結(jié)果。

經(jīng)過(guò)全面嚴(yán)謹(jǐn)?shù)脑u(píng)估，LongCat-Flash-Thinking-2601模型在編程、數(shù)學(xué)推理、智能體工具調(diào)用、智能體搜索等維度表現(xiàn)優(yōu)異：

LongCat-Flash-Thinking-2601的平均性能比較（資料圖）

· 編程能力：LongCat-Flash-Thinking-2601在LCB評(píng)測(cè)中取得82.8分，OIBench EN 評(píng)測(cè)獲47.7分，成績(jī)處于同類模型第一梯隊(duì)，代碼基礎(chǔ)能力扎實(shí)。

· 數(shù)學(xué)推理能力：在開啟“重思考”模式后表現(xiàn)突出，LongCat-Flash-Thinking-2601在 AIME-25 評(píng)測(cè)中獲100.0分（滿分），IMO-AnswerBench中以86.8分達(dá)到當(dāng)前SOTA。

· 智能體工具調(diào)用能力：在τ2-Bench評(píng)測(cè)中拿到88.2分，VitaBench評(píng)測(cè)中獲得29.3分，均獲得開源SOTA水平，在多領(lǐng)域工具調(diào)用場(chǎng)景下表現(xiàn)優(yōu)異，適配實(shí)際應(yīng)用需求。

· 智能體搜索能力：在BrowseComp任務(wù)中取得73.1分（全模型最優(yōu)），RW Search 評(píng)測(cè)獲79.5分，LongCat-Flash-Thinking-2601具備強(qiáng)勁的信息檢索與場(chǎng)景適配能力，達(dá)到開源領(lǐng)先水平。

為了更好測(cè)試智能體模型的泛化能力，團(tuán)隊(duì)還提出了一種全新的評(píng)測(cè)方法——通過(guò)構(gòu)建一套自動(dòng)化任務(wù)合成流程，支持用戶基于給定關(guān)鍵詞，為任意場(chǎng)景隨機(jī)生成復(fù)雜任務(wù)，并為每個(gè)生成的任務(wù)配備對(duì)應(yīng)的工具集與可執(zhí)行環(huán)境。由于這類環(huán)境中的工具配置具有高度隨機(jī)性，該方法可通過(guò)評(píng)估模型在該類環(huán)境中的性能表現(xiàn)，衡量其泛化能力。

實(shí)驗(yàn)結(jié)果表明，LongCat-Flash-Thinking-2601在絕大多數(shù)任務(wù)中保持領(lǐng)先性能，印證了其在智能體場(chǎng)景下優(yōu)秀的泛化能力。

技術(shù)解密：從“靶場(chǎng)”到“實(shí)戰(zhàn)”的訓(xùn)練哲學(xué)

對(duì)于新模型的技術(shù)思路，LongCat團(tuán)隊(duì)解釋稱，傳統(tǒng)智能體往往僅在數(shù)個(gè)簡(jiǎn)單模擬環(huán)境里訓(xùn)練，這帶來(lái)的問(wèn)題就像只在靶場(chǎng)訓(xùn)練的士兵，到了真實(shí)“戰(zhàn)場(chǎng)”可能會(huì)掉鏈子。而基于“環(huán)境擴(kuò)展+多環(huán)境強(qiáng)化學(xué)習(xí)”核心技術(shù)，團(tuán)隊(duì)為模型打造了多樣化的“高強(qiáng)度練兵場(chǎng)”，構(gòu)建了多套高質(zhì)量訓(xùn)練環(huán)境，并在每套環(huán)境中集成60余種工具形成密集依賴關(guān)系圖譜與復(fù)雜聯(lián)動(dòng)，支撐起高度復(fù)雜的任務(wù)場(chǎng)景。實(shí)驗(yàn)也證明，訓(xùn)練環(huán)境越豐富，模型在未知場(chǎng)景中的泛化能力越強(qiáng)。

得益于這套方案，LongCat-Flash-Thinking-2601在智能體搜索、智能體工具調(diào)用等核心基準(zhǔn)測(cè)試中穩(wěn)居前列。尤其在復(fù)雜隨機(jī)的分布外任務(wù)中，性能優(yōu)于 Claude-Opus-4.5-Thinking。

此外，LongCat團(tuán)隊(duì)針對(duì)性擴(kuò)展自研強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施，在保留原有高效異步訓(xùn)練特性的基礎(chǔ)上，實(shí)現(xiàn)大規(guī)模多環(huán)境智能體的穩(wěn)定并行訓(xùn)練，通過(guò)均衡搭配多環(huán)境任務(wù)、按難度與訓(xùn)練進(jìn)度智能分配算力，最大化提升訓(xùn)練效率與資源利用率；該團(tuán)隊(duì)還從復(fù)雜度、多樣性雙維度嚴(yán)控訓(xùn)練任務(wù)，配套專屬數(shù)據(jù)庫(kù)及優(yōu)化方案，杜絕模型“偏科”與訓(xùn)練漏洞，讓這套全流程方案持續(xù)賦能模型，使其穩(wěn)居智能體能力第一梯隊(duì)。

該團(tuán)隊(duì)還表示，現(xiàn)實(shí)世界的智能體環(huán)境充滿不確定性，API調(diào)用失敗、返回異常信息、觀測(cè)數(shù)據(jù)不完整等“噪聲”問(wèn)題，極易導(dǎo)致模型決策失誤。為此，團(tuán)隊(duì)在訓(xùn)練數(shù)據(jù)的過(guò)程中主動(dòng)注入多類噪聲，模擬API的調(diào)用失敗、返回錯(cuò)誤信息、數(shù)據(jù)缺失等場(chǎng)景，并用課程學(xué)習(xí)的方式循序漸進(jìn)地進(jìn)行模型訓(xùn)練，在訓(xùn)練過(guò)程中逐步增加噪聲的類型與強(qiáng)度——類比教新手騎車，首先會(huì)讓其在平坦路面做練習(xí)，等技能成熟后再逐步增加路面的復(fù)雜度。

帶噪聲/無(wú)噪聲評(píng)測(cè)集下的模型表現(xiàn)對(duì)比（資料圖）

經(jīng)過(guò)系統(tǒng)化的抗干擾訓(xùn)練，LongCat-Flash-Thinking-2601（Training w/Noise組）擁有了極強(qiáng)的環(huán)境適應(yīng)能力，在復(fù)雜場(chǎng)景中，也能穩(wěn)定發(fā)揮、高效完成任務(wù)。

浙江網(wǎng)經(jīng)社信息科技公司擁有18年歷史，作為中國(guó)領(lǐng)先的數(shù)字經(jīng)濟(jì)新媒體、服務(wù)商，提供“媒體+智庫(kù)”、“會(huì)員+孵化”服務(wù)；（1）面向電商平臺(tái)、頭部服務(wù)商等PR條線提供媒體傳播服務(wù)；（2）面向各類企事業(yè)單位、政府部門、培訓(xùn)機(jī)構(gòu)、電商平臺(tái)等提供智庫(kù)服務(wù)；（3）面向各類電商渠道方、品牌方、商家、供應(yīng)鏈公司等提供“千電萬(wàn)商”生態(tài)圈服務(wù)；（4）面向各類初創(chuàng)公司提供創(chuàng)業(yè)孵化器服務(wù)。

網(wǎng)經(jīng)社“電數(shù)寶”電商大數(shù)據(jù)庫(kù)（DATA.100EC.CN，免費(fèi)注冊(cè)體驗(yàn)全庫(kù)）基于電商行業(yè)18年沉淀，包含100+上市公司、新三板公司數(shù)據(jù)，150+獨(dú)角獸、200+千里馬公司數(shù)據(jù)，4000+起投融資數(shù)據(jù)以及10萬(wàn)+互聯(lián)網(wǎng)APP數(shù)據(jù)，全面覆蓋“頭部+腰部+長(zhǎng)尾”電商，旨在通過(guò)數(shù)據(jù)可視化形式幫助了解電商行業(yè)，挖掘行業(yè)市場(chǎng)潛力，助力企業(yè)決策，做電商人研究、決策的“好參謀”。

【關(guān)鍵詞】美團(tuán)大模型SOTA人工智能原創(chuàng)

【相關(guān)閱讀】: 當(dāng)健康問(wèn)題“遇上”春節(jié) 美團(tuán)醫(yī)藥健康發(fā)起“春節(jié)不打烊”活動(dòng) 助力用戶健康過(guò)年; 已設(shè)1億元獎(jiǎng)金激勵(lì)騎手安全騎行小年夜美團(tuán)再向數(shù)百名遵守交規(guī)騎手發(fā)放智能手表等新春禮包; 每人1萬(wàn)元為老騎手圓夢(mèng)！美團(tuán)向穩(wěn)定跑單老騎手發(fā)放新春拜年禮包; 新年悅己消費(fèi)“美麗三件套”需求暴漲，美團(tuán)：美發(fā)、美甲團(tuán)購(gòu)搜索量環(huán)比增長(zhǎng)9成; 釋放了哪些信號(hào)？解讀人社部等7部門對(duì)美團(tuán)?淘寶閃購(gòu)?京東秒送?閃送?滴滴等16家企業(yè)開展用工行政指導(dǎo); 54萬(wàn)餐飲老板上美團(tuán)智能掌柜問(wèn)AI，429萬(wàn)個(gè)經(jīng)營(yíng)困惑2分鐘得解

【投訴曝光】更多>

行業(yè)方案更多>: 《私域電商一站式解決方案》; 《直播電商一站式解決方案》; 《服裝電商產(chǎn)業(yè)鏈賦能解決方案》; 《移動(dòng)出行影響力和產(chǎn)品體系》; 《數(shù)字教育影響力和產(chǎn)品體系》; 《物流科技影響力和產(chǎn)品體系》; 《互聯(lián)網(wǎng)監(jiān)管方面影響力》; 《數(shù)商興農(nóng)影響力和產(chǎn)品體系》; 《數(shù)字健康影響力和產(chǎn)品體系》; 《產(chǎn)業(yè)電商影響力和產(chǎn)品體系》; 《數(shù)智產(chǎn)教影響力和產(chǎn)品體系》

【原創(chuàng)報(bào)告】更多>: 《2026年1月電子商務(wù)用戶體驗(yàn)與投訴數(shù)據(jù)報(bào)告》; 《2026年1月電商平臺(tái)商家投訴數(shù)據(jù)報(bào)告》

【百?gòu)?qiáng)榜】更多>: 《2024年中國(guó)私域電商“百?gòu)?qiáng)榜”》; 《2024年中國(guó)直播電商“百?gòu)?qiáng)榜”》; 《2024年中國(guó)新零售“百?gòu)?qiáng)榜”》; 《2024年中國(guó)數(shù)字教育“百?gòu)?qiáng)榜”》

【版權(quán)聲明】秉承互聯(lián)網(wǎng)開放、包容的精神，網(wǎng)經(jīng)社歡迎各方(自)媒體、機(jī)構(gòu)轉(zhuǎn)載、引用我們?cè)瓌?chuàng)內(nèi)容，但要嚴(yán)格注明來(lái)源網(wǎng)經(jīng)社；同時(shí)，我們倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán)，如發(fā)現(xiàn)本站文章存在版權(quán)問(wèn)題，煩請(qǐng)將版權(quán)疑問(wèn)、授權(quán)證明、版權(quán)證明、聯(lián)系方式等，發(fā)郵件至NEWS@netsun.com，我們將第一時(shí)間核實(shí)、處理。